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摘 要 人 类 嗓音 作为 听觉 环境 的 重要 组 成 部 分 ， 包含 了 大 量 副 语言 信息 以 帮助 识别 个 体 身 
份 ， 尤 其 对 于 盲人 而 言 ， 视 觉 面孔 经 验 的 缺乏 使 得 嗓音 信息 成 为 其 感知 对 方 个 体 特征 的 主 
要 来 源 。 通 过 结合 正常 视力 者 和 盲人 在 嗓音 选择 性 加 工 和 嗓音 身份 加 工 方 面 的 研究 ， 尝 试 
揭示 普遍 的 人 类 嗓音 加 工 模式 以 及 盲人 特异 的 嗓音 加 工 机 制 。 此 外 ， 与 视觉 面孔 加 工 相关 
的 梭 状 回 脑 区 也 参与 并 卷 入 了 两 类 人 群 的 嗓音 加 工 任务 ， 以 此 为 基础 梳理 的 视听 整合 模型 
和 基于 去 掩蔽 效应 的 跨 模 态 重组 假说 ， 为 这 两 类 人 群 嗓音 加 工 神经 基础 的 差异 性 提供 了 相 
应 的 解释 机 制 ， 未 来 研究 希望 可 以 进一步 探究 言 人 的 嗓音 加 工 策略 ， 以 及 考察 左 侧 桥 上 沟 / 
回 脑 区 在 嗓音 加 工 中 的 作用 。 
关键 词 嗓音 身份 加 工 ， 正 常 视力 者 ， 盲 人 群体 ， 梭 状 回 ， 面 孔 加 工 
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关 研 究 具 有 十 分 重要 的 社会 和 生态 学 意义 (Schweinberger et al., 2014). 
相 比 正常 视力 者 ， 盲 人 群体 的 嗓音 感知 能 力 则 显得 尤其 重要 。 盲 人 由 于 失明 ， 其 使 用 
视觉 面孔 识别 说 话 人 的 能 力 存 在 长 期 发 展 性 缺失 ， 从 而 嗓音 成 为 这 一 群体 感知 说 话 人 身份 


的 主要 信息 来 源 ， 并 且 大 量 基 于 学 习 ( 名 字 - 嗓 音 )- 再 认 范 式 的 研究 证 明 盲 人 具有 优 于 常人 的 


嗓音 身份 再 认 能 力 ， 先 天 (出 生 时 或 出 生 后 一 个 月 内 失明 ) 和 了 晚期 盲人 (16 岁 以 后 失明 ， 与 早 


期 盲人 的 概念 相对 ， 目 前 基于 早期 盲人 的 相关 研究 主要 选取 先天 盲人 群体 和 少数 2 岁 内 失 
明 的 被 试 ) 熟 悉 嗓音 身份 的 速度 更 快 (Focker et al., 2012; Focker et al., 2015; Holig et al., 2014a, 


2014b)， 嗓 音 身 份 再 认 正 确 率 更 高 (尤其 是 先天 盲人 ) (Braun, 2012; Bull et al., 1983; Focker et 
al., 2012; Holig et al., 2014a; Pang et al., 2020)， 再 认 需 要 的 反应 时 间 更 短 (Focker et al., 2012; 
Focker et al., 201$) 。 这 些 以 盲人 群体 为 对 象 的 嗓音 方面 的 研究 ， 不 仅 有 助 于 我 们 了 解 盲 人 


相 比 于 常人 的 嗓音 加 工 优势 以 及 二 者 在 神经 机 制 上 的 异同 ， 同 时 也 以 一 种 独特 视角 重新 闻 


述 了 人 类 嗓音 加 工 这 一 认 知 活动 ， 
义 。 


本 文 将 结合 正常 视力 者 和 盲人 群体 的 嗓音 加 工 研究 ， 从 嗓音 选择 性 加 工 和 嗓音 身份 加 
工 两 个 角度 疼 述 人 类 嗓音 感知 加 工 的 相关 机 制 ， 然 后 讨论 梭 状 回 脑 区 在 嗓音 加 工 中 的 作用 
以 及 盲人 面孔 加 工 脑 区 的 跨 模 态 重 组 现象 ， 最 后 就 盲人 的 嗓音 加 工 策略 、 左 侧 显 上 沟 脑 区 
在 嗓音 加 工 中 的 作用 等 方面 进行 展望 。 


为 探究 普遍 的 人 类 嗓音 身份 加 工 机 制 提 供 了 一 些 借鉴 意 
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2 人 类 嗓音 选择 性 加 工 的 脑 机 制 


人 类 嗓音 是 我 们 听觉 环境 中 最 重要 的 声音 ， 它 不 仅 以 语音 形式 体现 于 生活 的 各 个 方面 ， 


而 且 携 带 了 较 多 副 语言 信息 以 促进 人 类 社会 交往 和 互动 ， 目 前 大 量 研究 已 经 发 现 相 比 于 其 
他 环境 声音 、 动 物 发 声 ， 我 们 的 某 些 大 脑 区 域 对 人 类 嗓音 产生 更 强 的 激活 现象 ， 即 表现 出 


对 于 人 类 嗓音 的 选择 性 加 工 (Fecteau et al., 2004). 
Belin 等 人 (2000) 使 用 功能 磁 共 振 成 像 (functional magnetic resonance imaging, fMRI) 技 术 


首次 发 现 了 人 类 嗓音 的 选择 性 加 工 脑 区 一 一 颗 上 沟 (superior temporal sulcus, STS)， 作 者 通 


过 对 比 人 类 嗓音 材料 和 与 其 能 量 相当 的 环境 声音 (例如 自然 声音 、 动 物 声 音 和 机 械 声 音 ) 的 
大 脑 加 工 情况 ， 发 现 无 论 是 包含 语音 的 嗓音 (单词 、 非 词 、 外 语 )， 还 是 纯 嗓 音 (例如 笑 、 叹 
BEE MMEA E (upper bank of STS) 的 神经 元 都 比 加 工 环 境 声 音 时 具有 更 强 的 响 


应 。Bestelmeyer 等 人 (2011) 采 用 习 


E 复 经 颅 磁 刺激 (repetitive transcranial magnetic stimulation, 


rTMS) 技 术 进 一 步 论证 了 STS 与 人 类 嗓音 加 工 之 间 的 因果 关系 ， 作 者 对 于 右 侧 STS 和 控制 
参考 点 一 一 即 右 侧 缘 上 回 (supramarginal gyrus, SMG) 分 别 进行 刺激 ， 结 果 发 现 相 比 于 参考 脑 


区 ， 对 右 侧 STS 脑 区 的 干预 显著 损坏 了 个 体 的 人 类 嗓音 感知 能 力 (这 里 是 指 辨 别人 类 嗓音 和 
非 人 类 嗓音 )。 此 后 大 量 关 于 嗓音 加 工 的 脑 机 制 研究 也 不 断 证 实 了 STS 是 人 类 嗓音 选择 加 工 
的 核心 脑 区 这 一 结论 (Mathias & von Kriegstein, 2014), Belin 等 学 者 将 以 STS 为 核心 的 嗓音 


加 工 脑 区 命名 为 里 叶 嗓 音 区 (temporal voice areas, TVAs)， 主 要 沿 双 侧 STG/S 分 布 (Belin & 
Grosbras, 2010)， 值 得 一 提 的 是 ， 后 续 大 量 研究 都 显示 嗓音 感知 具有 右 偏 侧 化 倾向 ， 即 在 右 
侧 脑 区 的 激活 程度 更 高 (Andics et al., 2010; Fecteau et al., 2004; Koeda et al., 2006; Sharda & 


下 


Singh, 2012)。 
盲人 由 于 视觉 剥夺 主要 依靠 嗓音 信息 加 工 ， 这 种 相对 的 单一 化 加 工 通路 使 得 盲人 群体 
成 为 研究 人 类 嗓音 加 工 机 制 的 一 个 非常 好 的 视角 。 盲 人 群体 和 正常 视力 者 都 对 于 人 类 嗓音 
选择 性 地 激活 双 侧 STS(Dormal et al., 2018)， 但 相 比 于 正常 视力 者 和 晚期 盲人 ， 先 天 和 早期 
盲人 在 左 侧 STS/G 诱发 出 对 于 人 类 嗓音 刺激 的 更 强 激活 (Dormal et al., 2018; Gougoux et al., 
2009)， 在 右 侧 STS/G 则 未 报告 存在 显著 差异 (Gougoux et al., 2009)， 因 此 在 人 类 嗓音 的 选择 
性 加 工 方面 ， 盲 人 的 偏 侧 化 倾向 可 能 弱 于 正常 视力 者 群体 ， 而 这 一 倾向 在 嗓音 身份 、 嗓 音 
情绪 、 言 语 加 工 等 嗓音 信息 加 工 的 不 同 层面 上 均 发 现 了 类 似 的 结论 。 首 先 ， 虽 然 双 侧 里 叶 
g 均 存 在 显著 激活 ， 但 右 侧 里 叶 在 说 话 人 身份 加 工 中 起 主导 作用 (Scott 2019)， 但 盲人 的 嗓音 
身份 研究 不 仅 验证 了 右 侧 脑 区 的 重要 性 ， 也 凸显 了 左 侧 脑 区 对 于 盲人 嗓音 加 工 的 重要 作用 
盲人 嗓音 感知 时 诱发 的 左 侧 STS 脑 信 号 与 陌生 嗓音 辨别 成 绩 呈 显著 的 正 相 关 (Gougoux et 
al., 2009)， 盲 人 左 侧 STS 具有 更 高 的 嗓音 身份 分 类 准确 率 (Fairhall et al., 2017)。 但 这 些 结果 
并 不 意味 着 盲人 嗓音 加 工 呈 左 偏 侧 化 倾向 ， 因 为 其 右 侧 STS 神经 活动 与 陌生 嗓音 辨别 成 绩 
sd 也 具有 很 强 的 相关 性 (Gougoux et al., 2009)， 综 合 左 侧 和 右 侧 STS 的 激活 结果 和 脑 活动 -行为 
之 间 关 联 的 研究 结果 ， 可 以 发 现 相 比 常人 右 偏 侧 化 的 嗓音 身份 加 工 倾向 ， 盲 人 双 侧 STS 均 
卷 入 至 嗓音 身份 加 工 活动 中 。 其 次 ， 在 嗓音 情绪 加 工 方面 ， 正 常 视 力 者 仅 在 右 侧 pSTS 对 
嗓音 情绪 产生 响应 ， 先 天 盲人 的 嗓音 情绪 表征 在 两 个 半球 整体 的 响应 强度 均 较 高 Fairhall et 
© al., 2017)， 并 且 早 期 盲人 可 以 在 检测 嗓音 情绪 效 价 方面 达到 与 常人 类 似 的 准确 性 ， 但 并 未 
= 表现 出 任 一 半球 的 偏 侧 化 模式 (Gamond et al., 2017); 在 言语 加 工 方面 ， 先 天 盲人 也 存在 更 
© 强 的 双 侧 加 工效 应 ， 其 在 正常 视力 者 语言 加 工 中 发 现 的 典型 左 侧 偏 侧 化 现象 明显 减少 (Lane 
et al., 2017)。 因 此 无 论 是 嗓音 的 选择 性 加 工 还 是 嗓音 信息 加 工 的 不 同 层 面 上 ， 盲 人 都 表现 
出 半球 偏 侧 化 效应 的 减少 。 最 后 ， 盲 人 群体 半球 偏 侧 化 效应 的 减少 可 能 与 失明 时 间 之 间 存 
在 相关 关系 。Gougoux 等 人 (2009) 的 研究 表明 先天 盲人 左 侧 STS 的 激活 程度 高 于 晚期 盲人 ， 
一 定 程度 上 说 明 嗓 音 选择 性 加 工 的 偏 侧 化 效应 的 减少 程度 与 失明 时 间 相 关 ， 而 在 言语 加 工 
层面 ， 盲人 大 脑 加 工 偏 侧 化 效应 的 减少 程度 也 与 失明 时 间 之 间 存 在 着 正 相 关 性 (Atilgan et 
al., 2017; Lane et al., 2017; Pant et al., 2020)， 例 如 成 年 后 失明 的 盲人 不 同 于 先天 盲人 ， 仍 表 
征 出 与 常人 类 似 的 额 标 语言 网 络 的 左 侧 化 加 工 倾向 (Pant et al., 2020)。 
相 比 于 正常 视力 者 ， 先 天 和 早期 盲人 的 嗓音 加 工 活动 减少 了 特异 半球 的 偏 侧 化 倾向 并 
表现 出 更 具 双 侧 化 加 工 的 特征 ， 这 一 现象 可 能 与 盲人 特异 性 的 听觉 脑 区 结构 模式 和 听觉 信 
息 加 工 模式 相关 。 在 结构 连接 方面 ， 先 天 言 人 的 双 侧 里 上 平面 (次 级 听觉 皮层 ) 中 成 对 子 脑 
区 在 皮层 厚度 和 表面 积 上 的 相关 性 均 明 显 高 于 正常 对 照 组 ， 说 明 先 天 失明 严重 影响 了 听觉 


pæ: 


相关 脑 区 的 结构 连接 ， 并 且 发 展 为 半球 间 形 态 更 加 协调 的 模式 (Atilgan et al., 2017); 在 听觉 
加 工 机 制 方面 ， 患 有 先天 无 眼球 症 的 盲人 和 早期 盲人 的 内 侧 膝 状 体 对 于 同 侧 和 对 侧 听 觉 刺 
激 的 反应 同样 强烈 (不 同 于 正常 视力 者 典型 的 对 侧 偏向 )， 表 明 其 皮层 -丘脑 的 连接 发 生 了 改 
变 ， 即 盲人 对 听觉 输入 表现 出 双边 内 侧 膝 状 体 以 及 双 侧 初级 听觉 皮层 的 响应 (Coullon et al., 
2015); 因此 盲人 听觉 加 工 脑 区 结构 和 功能 的 特异 性 ， 可 能 在 一 定 程度 上 解释 了 其 嗓音 加 工 
的 双 侧 化 加 工 倾向 。 

除了 和 典型 的 嗓音 加 工 脑 区 ， 盲 人 视觉 皮层 也 产生 对 于 人 类 嗓音 的 激活 现象 ， 先 天 和 了 晚 
期 盲人 对 于 嗓音 刺激 在 枕 叶 诱发 出 更 高 的 血 氧 反应 (Holig et al., 2014a, 2014b; Topalidis et al., 
2020)， 但 实际 上 盲人 的 枕 叶 脑 区 参与 了 听觉 工作 记忆 、 听 觉 空间 定位 、 听 觉 运动 、 声 音频 
率 、 上 听觉 语言 等 广泛 听觉 任务 的 加 工 活动 (Collignon et al., 2013; Collignon et al., 2011; Gudi- 
Mindermann et al., 2018; Lewald & Getzmann, 2013; Loiotile et al., 2019; Poirier et al., 2006; 


| 
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Rimmele et al., 2019; Voss et al., 2008; Voss et al., 2011; Watkins et al., 2013) 。 相 比 于 正常 视力 
者 枕 叶 对 于 听觉 刺激 的 血 氧 反应 明显 降低 ， 先 天 盲人 和 晚期 盲人 的 枕 叶 则 显著 提高 了 听觉 
诱发 的 血 氧 依赖 反应 (Collignon et al., 2013)， 先 天 盲人 还 存在 “初级 听觉 皮层 (primary 
auditory cortex, PAC/A1)- 初 级 视觉 皮层 (primary visual cortex, PVC/V1)”* 的 皮质 连接 ， 因 而 增 
强 了 盲人 枕 叶 中 V1 对 听觉 刺激 的 血 氧 反应 (Klinge et al., 2010)， 结 合 听 觉 输入 明显 增强 言 
人 听觉 和 视觉 皮层 之 间 的 y 波 段 同 步 性 和 相关 性 的 证 据 (Pelland et al., 2017; Schepers et al., 
2012)， 盲 人 视觉 皮层 对 于 嗓音 刺激 的 响应 可 能 体现 了 盲人 对 于 听觉 输入 的 一 般 性 加 工 。 

总 的 来 说 ， 虽 然 基于 嗓音 加 工 障碍 人 和 群 的 研究 表明 嗓音 感知 能 力 可 以 独立 于 一 般 听 觉 
能 力 而 存在 ， 但 盲人 嗓音 加 工 的 证 据 强调 了 二 者 之 间 的 关系 ， 即 嗓音 加 工 很 可 能 受到 听觉 
能 力 和 听觉 加 工 机 制 的 影响 ， 从 而 两 类 人 和 群 表现 出 不 同 的 嗓音 偏 侧 化 加 工 倾向 和 视觉 脑 区 
的 卷 入 与 否 的 活动 模式 。 


3 人 类 嗓音 身份 加 工 的 脑 机 制 


3.1 神经 典型 发 育 人 群 的 嗓音 身份 加 工 研究 


根据 听 者 对 于 说 话 人 嗓音 的 熟悉 程度 ， 可 以 将 嗓音 大 致 分 为 熟悉 嗓音 和 不 熟悉 嗓音 
熟悉 嗓音 研究 一 般 涉 及 对 其 嗓音 身份 再 认 或 识别 ， 而 不 熟悉 嗓音 研究 则 一 般 涉 及 嗓音 身份 
辨别 (Van Lancker & Kreiman, 1987; Van Lancker et al., 1989) 。 基 于 神经 典型 发 育 人 和 群 的 脑 
成 像 研 究 已 经 证 实 不 同 熟 悉 程 度 的 嗓音 身份 加 工具 有 不 同 的 认 知 神经 基础 ，Belin 和 Zatore 
(2003) 发 现 说话 人 身份 适应 性 (聆听 同一 说 话 人 产 出 的 不 同音 节 ) 会 减弱 STS/G 前 部 (anterior 
STS, aSTS) 的 激活 强度 ， 而 不 会 对 言语 适应 (聆听 不 同 说 话 人 产 出 的 相同 音节 ) 产 生 这 一 效应 ， 
说 明 STS/G 前 部 与 加 工 熟悉 的 说 话 人 身份 相关 ， 并 在 后 续 的 大 量 研究 中 进一步 证 明了 
STS/G 的 前 部 和 中 部 (middle STS, mSTS) 是 熟悉 嗓音 身份 再 认 的 重要 脑 区 (Aglieri et al., 2021; 
Belin & Zatorre, 2003; Bonte et al., 2014; Latinus et al., 2011; Schelinski et al., 2016; von 
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Kriegstein et al. 2003; von Kriegstein & Giraud, 2004), ， 而 STS/G 的 后 部 (posterior STS, pSTS) 
则 参与 了 不 熟悉 嗓音 身份 的 辨别 加 工 (Lattner et al., 2005; Rama & Courtney, 2005; von 


Kriegstein & Giraud, 2004; Warren et al., 2006)， 例 如 Warren 等 人 (2006) 等 人 发 现 区 分 不 同 陌 
生 嗓 首 会 在 pSTS 诱发 更 强 的 激活 。 所 以 虽然 右 侧 里 时 ， 尤 其 是 STS/G 相关 脑 区 具有 对 了 
人 类 嗓音 的 选择 性 反应 ， 但 显示 出 对 于 不 同 熟悉 程度 嗓音 身份 加 工 的 分 离 ， 即 STS/G 前 部 
和 中 部 区 域 更 多 地 参与 了 熟悉 嗓音 身份 加 工 ，STS/G 后 部 参与 了 陌生 嗓音 身份 加 工 。 
嗓音 感知 网 络 不 仅 包括 TVA 这 一 核心 区 域 ， 还 包括 由 几 个 前 额 叶 脑 区 (也 被 称 为 额 叶 
嗓音 区 ，frontal voice areas，FVASsS) 和 皮质 下 结构 (例如 查 仁 核 ) 组 成 的 “拓展 ”部 分 ， 这 部 
分 脑 区 由 嗓音 诱发 的 激活 程度 虽然 较 小 但 是 非常 明显 (Pernet et al., 2015)。 一 些 脑 成 像 研究 
表明 FVAs 不 仅仅 对 于 嗓音 信息 特异 性 敏感 ， 而 且 也 参与 了 熟悉 嗓音 的 身份 加 工 (Aglieri et 
al., 2021; Aglieri et al., 2018; Holig et al., 2017; Zaske et al., 2017) 。 基 于 人 类 STS 结构 与 功能 
一 连接 的 元 分 析 结 果 表 明 STS 前 部 与 某 些 腹 侧 流 区 域 表 现 出 较 强 的 共同 激活 ， 例 如 额 下 回 眶 
6 部 (inferior frontal gyrus pars orbitalis) (属于 中 部 FVAs) 和 前 里 叶 (anterior temporal lobe, ATL) 
a 脑 区 (Erickson et al., 2017)， 其 中 ATL 也 被 报告 参与 个 人 身份 的 多 模 态 识别 (von Kriegstein 
© et al., 2006)， 包 括 嗓音 身份 识别 这 一 过 程 (Andics et al., 2010; Belin & Zatorre, 2003; Lattner et 
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al., 2005; Nakamura et al., 2001; von Kriegstein et al., 2003)， 因 此 aSTS 与 ATL. IFG (inferior 
frontal gyrus) 等 腹 侧 流 区 域 的 功能 连接 存在 于 熟悉 嗓音 身份 的 加 工 中 。 


3.2 临床 群体 的 嗓音 身份 加 工 研究 


来 自 脑 损伤 病人 的 临床 研究 也 显示 熟悉 和 不 熟悉 嗓音 是 两 种 可 分 离 的 认 知 神经 活动 
(Blank et al., 2014; Peretz et al., 1994; Stevenage, 2018; Van Lancker et al., 1988; Van Lancker & 


Kreiman, 1987)。Van Lancker 和 Kreiman(1987)、Peretz 等 人 (1994) 发 现 了 两 类 不 同 的 嗓音 失 
认 症 (phonagnosia) 一 一 陌生 嗓音 辨别 障碍 和 熟悉 (这 里 具体 指 著名 嗓音 ) 嗓 音 再 认 障 碍 ， 前 者 
主要 与 任 一 半球 的 显 叶 损伤 相关 ， 后 者 主要 与 右 脑 损伤 相关 ， 包 括 右 下 顶 叶 或 右 显 - 顶 叶 皮 
层 ， 接 近 于 右 侧 STS。 先 天 嗓音 失 认 症 患 者 不 存在 脑 区 损伤 状况 ， 但 也 存在 嗓音 再 认 障 碍 ， 
例如 难以 再 认 著 名 嗓音 和 学 习 再 认 新 的 嗓音 ， 而 分 辨 陌生 嗓音 的 能 力 依然 完好 (Garrido et 
al., 2009)， 因 此 嗓音 失 认 症 患 者 不 同 的 行为 学 症状 以 及 不 同 的 生理 解剖 结构 支持 了 熟悉 和 
不 熟悉 嗓音 身份 加 工 是 两 种 不 同 的 认 知 活动 。 此 外 ， 关 于 精神 分 裂 患者 和 高 功能 孤独 症 谱 
系 障碍 (autism spectrum disorders, ASD) 人 和 群 嗓音 再 认 障 碍 的 相关 研究 则 进一步 验证 了 基于 
神经 典型 发 育 人 群 嗓音 再 认 的 神经 影像 结果 ， 例 如 存在 约 听 症状 的 精神 分 裂 人 群 再 认 熟 悉 
嗓音 能 力 受 损 ， 并 伴 有 右 侧 STG 激活 程度 的 显著 降低 (Zhang et al., 2008)。 患 有 嗓音 再 认 
障碍 的 高 功能 ASD 人 群 aSTS 脑 区 与 熟悉 嗓音 再 认 行 为 表现 之 间 并 未 表现 出 类 似 于 常人 的 
脑 信号 -行为 表现 间 的 相关 性 (Schelinski et al., 2016)， 因 而 右 侧 aSTS 的 功能 失调 可 能 解释 了 
这 类 人 群 的 嗓音 再 认 障 碍 。 


除了 嗓音 身份 加 工 障碍 人 群 的 研究 ， 结 合 来 自 
了 解 人 类 嗓音 身份 加 工 机 制 ， 因 为 盲人 依赖 于 嗓音 加 工 说 话 人 相关 信息 ， 脑 成 像 结 果 也 显 


示 盲 人 更 为 


盲人 的 相关 研究 能 够 帮助 我 们 更 加 深入 


依赖 双 侧 STS 脑 区 进行 嗓音 身份 加 工 ，Fairhall 等 人 (2017) 使 用 了 多 体 素 分 类 分 
析 方 法 (multi-voxel pattern analysis, MVPA) 对 比 了 先天 盲人 和 正常 视力 者 辨别 卫生 嗓音 的 大 


脑 活 动 ， 结 果 显示 盲人 在 左 侧 STG 


L 有 更 高 的 嗓音 身份 分 类 准确 率 ， 说 明 盲人 更 为 依赖 


STS 加 工 嗓音 身份 信息 。Gougoux 等 人 (2009) 发 现 盲 人 双 侧 pSTS 的 激活 强度 与 陌生 嗓音 辩 


别 成 绩 之 间 


具有 较 高 的 相关 性 ， 而 在 正常 视力 者 中 不 存在 这 一 现象 ， 这 一 结果 进一步 了 强 


调 了 关于 pSTS 参与 不 熟悉 嗓音 身份 编码 的 结论 。 


此 外 ， 


盲人 嗓音 加 工 的 事件 相关 


H {iz (event-related potential, ERP) 研 究 显 示 了 其 在 时 间 


加 工 上 的 优势 ， 相 比 于 正常 视力 者 和 晚期 盲人 ， 先 天 盲人 可 以 在 早期 感知 加 工 阶段 
(100~160ms) 就 可 以 诱发 更 强 的 熟悉 说 话 人 匹配 效应 (说 话 人 不 一 致 条 件 的 激活 显著 强 于 一 
致 条 件 )(Focker et al., 2012; Focker et al., 20153)， 说 明 先 天 盲人 可 以 更 早 知觉 说 话 人 身份 是 否 
一 致 。 而 先天 盲人 在 一 般 听 觉 刺激 中 已 经 表现 出 更 早 探测 的 优势 ， 例 如 在 听觉 刺激 诱发 的 
中 潜伏 期 响应 脑 电 成 分 (例如 Pa、Nb、P1 等 ) 和 长 潜伏 期 响应 脑 电 成 分 ( 指 的 是 100ms 之 后 
的 脑 电 反应 ， 例 如 Nl1、P2) 上 的 潜伏 期 都 更 短 (Elbert et al., 2002; Manjunath et al., 1998; 
Naveen et al., 1997; Roder et al., 1996), N1 振幅 更 大 (Roder et al., 2007; Roder et al., 1996; 
Topalidis et al., 2020) 和 不 应 期 更 短 (Roder et al., 1999)， 说 明 先 天 盲人 可 以 更 早 更 有 效 地 感知 


编码 听觉 刺激 ， 这 一 能 力 可 能 解释 


其 在 嗓音 感知 中 所 表现 出 的 时 间 加 工 优势 。 


4 面孔 加 工 相关 脑 区 在 嗓音 加 工 中 的 卷 入 及 其 解释 


4.1 正常 视力 者 的 “FFA-TVA” 连 接 模 式 及 其 解释 


一 般 认为 视觉 面孔 和 听觉 嗓 


视力 者 和 盲 


be 


VAN 


别 作为 加 工 说 话 人 身份 信息 的 两 种 不 同 通 路 ， 但 正常 


人 和 群体 的 嗓音 加 工 丰 


ng 
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类 人 群 的 面孔 加 工 相 关 脑 区 可 以 通 
BUH, KER 
功能 上 均 存 在 着 连接 通路 (Blank et al., 2011; Blank et al., 2015; Blank et al., 2014; Schall et al., 


JJ 
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示 了 这 两 种 模 态 之 间 又 具有 紧密 的 关系 ， 有 具体 是 指 两 
某 些 特定 的 方式 参与 嗓音 加 工 任务 。 在 正常 视力 者 嗓 


E 明 TVA(temporal voice areas) 和 FFA(fusiform face area) 在 结构 和 


F FFA 脑 区 又 可 以 根据 不 同 任务 诱发 的 激活 情况 划分 


为 以 下 两 种 功能 脑 


区 : 在 听觉 环境 下 由 熟悉 嗓音 再 认 任 务 诱发 的 FFA 脑 区 即 cFFA(cross 


modal-FFA)， 和 在 人 类 视觉 面孔 选择 性 加 工 任务 中 诱发 的 FEA 脑 区 即 VFFA(visual-FFA) 
(Blank et al., 2011; von Kriegstein et al., 2008)， 下 文 将 分 别 阐述 这 两 种 功能 脑 区 与 嗓音 加 工 
脑 区 的 连接 模式 。 

一 方面 ， 有 研究 发 现 了 关于 嗓音 再 认 过 程 中 的 TVA 和 cFFA 的 连接 模式 。 面 孔 失 认证 


患者 经 过 实验 前 的 ( 单 模 态 ) 嗓 音 熟 悉 学 习 之 后 ， 虽 然 嗓音 再 认 率 明显 差 于 常人 ， 但 其 FFA 


脑 区 表征 出 对 于 熟悉 嗓音 信息 的 跨 模 态 反应 ， 并 且 FFA( 即 cFFA)49 STS 的 功能 连接 强度 与 
常人 无 异 (von Kriegstein et al., 2006)， 说 明 在 没有 任何 视觉 面孔 信息 提示 的 情况 下 (包括 实 
验 前 的 学 习 阶 段 和 正式 实验 阶段 )，cFFA 可 以 独立 于 面孔 表征 能 力 而 响应 于 熟悉 嗓音 信息 ， 
并 与 STS 构建 功能 连接 作用 于 嗓音 再 认 活 动 。 

另 一 方面 ， 还 有 一 些 研 究 也 强调 了 熟悉 嗓音 再 认 过 程 中 vFFA 脑 区 的 卷 入 以 及 vFFA 和 
TVA 的 连接 模式 ， 这 些 研究 使 用 (已 知 面孔 ) 个 体 熟 悉 的 嗓音 (von Kriegstein et al., 2005) 或 者 
嗓音 -面孔 整体 学 习 后 的 嗓音 材料 (von Kriegstein et al., 2008; Schall et al., 2013)， 基 于 独立 的 
视觉 面孔 定位 任务 中 的 FEA 脑 区 ( 即 YEFA) 作 为 感 兴趣 区 ， 发 现 了 其 在 嗓音 再 认 过 程 中 有 所 
卷 入 (von Kriegstein et al., 2008; Schall et al., 2013) 并 与 STS 脑 区 存在 功能 连接 模式 (von 
Kriegstein et al., 2005)， 说 明 在 已 知 视觉 面孔 刺激 的 情况 下 ，vFFA 脑 区 可 能 也 参与 了 嗓音 
再 认 加 工 活动 。 此 外 ， 结 合 面孔 失 认证 患者 的 证 据 也 可 以 发 现 面孔 信息 对 于 嗓音 再 认 具 有 

要 作用 ， 这 类 人 和 群 较 弱 的 面孔 表征 能 力 使 其 难以 通过 面孔 -嗓音 的 整体 感知 改善 后 期 ( 单 
模 态 下 ) 嗓 音 再 认 能 力 ， 也 不 存在 行为 与 面孔 加 工 脑 区 激活 强度 的 相关 性 ， 而 经 过 同样 熟悉 
任务 的 正常 对 照 组 则 可 以 提升 嗓音 再 认 行 为 成 绩 ， 说 明 面 孔 表 征 能 力 和 对 于 面孔 信息 的 加 
工 可 以 有 效 促进 个 体 身份 加 工 或 者 嗓音 再 认 加 工 (von Kriegstein et al., 2008)。 同 时 ， 研 究 发 
现 正 常 对 照 组 行为 成 绩 的 提升 与 嗓音 再 认 任 务 中 FFA( 这 里 

vFFA， 因 为 是 基于 独立 的 视觉 面孔 定位 任务 中 的 FFA 脑 区 作为 感 兴趣 区 ) 的 激活 强度 
呈正 相关 ， 说 明正 常 对 照 组 在 脑 响应 层面 上 也 有 效 使 用 了 面孔 信息 以 促进 嗓音 再 认 ， 强 调 
了 vFFA 在 熟悉 嗓音 再 认 加 工 中 的 重要 性 (Maguinness & von Kriegstein et al., 2021; von 
Kriegstein et al., 2008)。 因 此 视觉 面孔 加 工 脑 区 在 嗓音 再 认 过 程 中 存在 卷 入 现象 并 有 效 地 促 
进 了 嗓音 再 认 活 动 ， 下 面 我 们 将 从 以 下 三 个 方面 详细 阐述 这 一 机 制 。 

首先 ， 视 觉 面孔 信息 可 以 在 早期 阶段 调节 嗓音 身份 的 感知 加 工 。Focker 等 人 (2011) 首 

O 先 让 被 试 学 习 所 有 嗓音 和 面孔 材料 从 而 对 实验 中 的 说 话 人 身份 产生 较 高 的 熟悉 程度 ， 通 过 

面孔 或 嗓音 刺激 (S1) 对 于 第 二 个 嗓音 刺激 (S2) 的 启动 效应 考察 了 身份 再 认 的 视听 交互 时 间 进 

程 ， 结 果 发 现 单 模 态 听觉 (先后 呈现 两 个 嗓音 刺激 ) 的 说 话 人 不 一 致 效应 诱发 了 270~530ms 
的 ERP 负 波 ， 跨 模 态 (先后 呈现 面孔 、 嗓 音 刺激 ) 说 话 人 不 一 致 效应 则 可 以 在 更 早 的 时 间 窗 
内 (100~140 ms) 产 生 反 应 ， 说 明 视 觉 面孔 传递 的 身份 信息 可 以 调节 嗓音 的 早期 感觉 加 工 。 
其 次 ， 面 孔 心 理 表征 可 以 加 速 嗓 音 再 认 活 动 ，Schall 等 人 (2013) 使 用 脑 磁 图 
(magnetoencephalography, MEG) 技 术 发 现 相 比 于 “职业 ( 非 面孔 类 图 片 )- 嗓 音 ” 的 控制 条 件 ， 
面孔 -嗓音 的 前 期 学 习 经 历 使 得 在 嗓音 再 认 加 工 的 100ms 左右 诱发 了 右 侧 FFA 的 激活 ， 
200ms 时 听觉 感觉 成 分 M200 的 响应 速度 得 到 明显 加 快 。 虽 然 在 此 之 前 von Kriegstein 等 人 
(2005) 已 经 证 明了 熟悉 嗓音 可 以 诱发 面孔 加 工 脑 区 的 激活 ， 来 自 运 动 引 起 的 失明 (motion- 
induced blindness, MIB) 颅 内 脑 电 证 据 也 表明 ， 梭 状 回 的 神经 元 调节 可 能 与 视觉 意识 有 关 
(Matsuzaki et al., 2012)， 但 Schall 等 人 (2013) 的 研究 结果 则 进一步 显示 面孔 加 工 脑 区 在 完成 


ry 


听觉 说 话 人 识别 (200ms 左右 ) 之 前 就 已 经 做 出 响应 (Schall et al., 2015; Schweinberger, 2001), 
并 且 大 脑 利 用 这 种 视觉 表征 加 速 了 听觉 中 的 嗓音 早期 感觉 加 工 。 最 后 ， 面 孔 信息 不 仅 可 以 
调节 和 加 速 嗓音 再 认 的 早期 知觉 过 程 ， 也 有 效 促进 了 嗓音 再 认 行 为 表现 ， 即 通过 短 时 间 的 
面孔 -嗓音 整体 感知 ， 正 常 视力 者 可 以 在 行为 表现 和 脑 响应 层面 上 有 效 使 用 面孔 信息 以 提高 
嗓音 再 认 能 力 (von Kriegstein et al., 2008)， 这 种 来 自 面孔 的 促进 作用 在 噪声 条 件 下 的 嗓音 再 
认 研 究 中 也 得 到 进一步 验证 (Maguinness & von Kriegstein, 2021). 
总 的 来 说 ， 正 常 视力 者 的 熟悉 嗓音 再 认 加 工 可 以 根据 说 话 人 面孔 信息 的 已 知 与 否 划 分 
为 两 种 不 同 的 “TVA-FFA” 通 路 ， 在 不 涉及 任何 面孔 信息 的 嗓音 再 认 加 工 中 ，FFA 脑 区 可 以 
对 于 熟悉 嗓音 产生 响应 即 发 生 跨 模 态 信息 加 工 ， 并 且 构 建 其 与 嗓音 加 工 脑 区 之 间 的 功能 连 
fe; 在 已 知 说 话 人 面孔 的 嗓音 再 认 加 工 中 ， 视 觉 面孔 加 工 脑 区 至 少 在 一 定 程度 上 卷 入 了 这 
一 过 程 ， 并 可 以 利用 熟悉 面孔 信息 加 速 和 促进 了 嗓音 身份 加 工 ， 符 合 视 - 听 觉 整合 理论 
一 (Maguinness et al., 2018)， 即 嗓音 加 工 和 面孔 加 工 系 统 可 以 在 多 个 加 工 阶段 产生 交互 作用 ， 
® 并 且 跨 模 态 信息 整合 相 比 于 单一 模 态 的 处 理 更 加 迅速 和 高 效 (Schweinberger et al., 2011)， 这 
= 种 交互 作用 和 信息 处 理 的 高 效 性 可 能 有 助 于 优化 个 人 身份 识别 加 工 。 


4.2 盲人 前 部 梭 状 回 脑 区 在 嗓音 加 工 中 的 卷 入 及 其 解释 


© 来 自 言 人 群体 嗓音 加 工 的 研究 结果 也 强调 了 右 侧 梭 状 回 在 嗓音 加 工 中 的 卷 入 ， 例 如 早 
期 盲人 的 右 侧 前 部 梭 状 回 脑 区 (anterior fusiform gyrus, aFG) 诱 发 了 对 于 人 类 嗓音 的 选择 性 反 
N 应 (Gougoux et al., 2009)， 并 在 这 一 加 工 过 程 中 与 左 侧 STS 构建 了 功能 连接 (Dormal et al., 
2018)， 早 期 盲人 和 晚期 盲人 右 侧 aFG 可 以 诱发 对 于 熟悉 嗓音 身份 的 匹配 效应 (Holig et al., 
a 2014a, 2014b)， 综 合 这 些 结果 可 以 发 现 涉及 盲人 嗓音 加 工 的 FG 脑 区 主要 位 于 右 侧 aFG。 
CS aFG 不 仅 是 视觉 面孔 的 选择 性 加 工 脑 区 (Jonas et al., 2016)， 同 时 也 是 熟悉 面孔 身份 加 工 
的 一 个 关键 节点 (Jonas et al., 2015). Jonas 等 人 (2016) 利 用 颅 内 脑 电 (intracranial 
electroencephalographic, iEEG) 技 术 记 录 了 上 腹 外 侧 枕 - 显 脑 区 对 于 面孔 选择 性 反应 加 工 诱发 的 
局 部 场 电 位 活动 ， 结 果 发 现 不 仅 在 右 侧 中 部 梭 状 回 脑 区 (一 般 被 认为 是 vFFA 脑 区 的 空间 定 
立 )， 在 右 侧 前 部 梭 状 回 脑 区 等 前 显 叶 脑 区 也 出 现 了 较 高 的 与 面孔 选择 性 反应 相关 的 神经 信 
号 。 而 关于 面孔 失 认 症 的 研究 表明 右 侧 aFG 与 面孔 再 认 能 力 之 间 有 具有 一 定 关 系 ， 相 比 于 常 
人 ， 面 孔 失 认 症 患者 的 aFG 的 体积 明显 减少 ， 并 且 这 一 体积 的 减少 与 著名 面孔 再 认 行 为 成 
绩 的 降低 显著 相关 (Behrmann et al., 2007)， 说 明 aFG 脑 区 可 能 影响 和 参与 了 面孔 再 认 活 动 。 
Jonas 等 人 (2015) 的 研究 为 这 一 推论 提供 了 因果 性 证 据 ， 作 者 发 现 刺激 癫痫 患者 (刺激 之 前 患 
者 在 著名 面孔 再 认 测 试 、 物 品 和 人 脸 辨 别 测试 的 结果 显示 为 正常 ) 的 右 侧 aFG 可 以 诱发 短暂 
性 面孔 失 认 症 ， 即 无 法 再 认 著 名 面孔 ， 而 视觉 能 力 和 人 脸 识 别 能 力 完好 。 

而 在 盲人 群体 中 ， 参 与 常人 面孔 身份 和 面孔 选择 性 加 工 的 右 侧 aFG 脑 区 可 以 响应 于 嗓 
音 身 份 (Holig et al., 2014a, 2014b) 和 嗓音 选择 性 加 工 (Gougoux et al., 2009; Dormal et al., 


2018)， 因 此 盲人 右 侧 aFG IX AY RE ACE SPAS HEAR. KA AMILT AY Ee tht 
EAE SPE A EK EAS AR, LT A, BAAN “i 
叶 嗓 音 加 工 脑 区 ”( 常 人 嗓音 加 工 脑 区 的 同 源 位 置 ) 诱 发 了 更 强 的 面孔 选择 性 反应 ， 这 一 神 
经 活动 与 面孔 加 工行 为 成 绩 也 具有 显著 正 相 关 性 (Benetti et al., 2017)， 说 明 缺 少 听觉 输入 的 
玲 人 “嗓音 加 工 脑 区 ”有 效 地 参与 面孔 加 工 ， 而 盲人 右 侧 aFG 在 嗓音 加 工 任务 中 的 卷 入 ， 
可 能 也 体现 了 这 种 神经 可 塑性 变化 。 

针对 盲人 这 一 跨 模 态 重组 现象 ， 则 可 以 通过 “去 掩蔽 (unmasking effect trir, Hi 
蔽 效应 是 指 发 生 在 传统 的 特定 模 态 的 皮层 (例如 视觉 皮层 、 听 觉 皮 层 ) 内 的 跨 模 态 抑制 效应 ， 
以 视觉 皮层 为 例 ， 人 类 和 成 年 动物 的 视觉 皮层 存在 来 自 皮质 或 者 皮质 下 连接 的 听觉 和 触觉 
输入 ， 但 是 这 些 输 入 会 被 主要 的 视觉 输入 所 掩 珊 ， 不 能 引起 主观 的 非 视觉 感觉 和 枕 叶 激活 
(Kupers et al., 2006; Ptito et al., 2008; Qin & Yu, 2013), fMRI 和 正 电子 放射 断层 造影 
(positron emission tomography, PET) 研 究 已 经 证 明 ， 一 种 感觉 通道 的 刺激 可 以 抑制 其 他 感觉 
通道 对 相应 脑 区 的 反应 (Gougoux et al., 2005; Haxby et al., 1994; Johnson & Zatorre, 2005; 
Kawashima et al., 1995; Laurienti et al., 2002; Shulman et al., 1997) 。 由 于 缺乏 视觉 输入 ， 盲 人 
视觉 皮层 只 能 征用 和 增强 已 有 的 听觉 或 触觉 输入 以 处 理 ( 非 视觉 ) 信 息 ， 这 种 现象 被 称 为 
“去 掩蔽 效应 ”， 例 如 盲人 枕 叶 中 的 V1 增强 了 与 Al 的 结构 和 功能 连接 以 执行 听觉 任务 
(Klinge et al., 2010)。 

虽然 目前 掩蔽 效应 主要 发 生 于 传统 特定 横 态 的 皮层 中 ， 但 一 些 与 个 体 识 别 加 工 相关 的 
特异 性 脑 区 也 具有 类 似 表现 ， 例 如 正常 视力 者 的 右 侧 嗓音 加 工区 对 于 视觉 面孔 刺激 表现 为 
负 激 活 状 态 (Benetti et al., 2017), Benetti 等 人 (2018) 使 用 概率 纤维 追踪 技术 检验 了 正常 视力 
者 右 侧 TVA 与 V2/3 的 结构 连接 ， 发 现 二 者 具有 非常 高 的 连接 概率 (>80%)(Benetti et al., 
2018)， 也 就 是 说 右 侧 嗓音 加 工区 接受 来 自 V2/3 的 视觉 输入 ， 但 掩蔽 了 视觉 信息 的 加 工 ， 
O 不 会 产生 对 于 视觉 面孔 的 响应 。 由 此 可 见 ， 这 种 跨 模 态 抑制 效应 不 仅仅 发 生 在 传统 的 视觉 

听觉 皮层 中 ， 也 发 生 在 与 个 体 识 别 加 工 的 相关 脑 区 中 。 
结合 早期 玖 人 面孔 加 工 的 研究 将 有 助 于 解释 这 种 基于 去 掩蔽 效应 的 跨 模 态 重组 现象 ， 
早期 蕉 人 的 嗓音 加 工 脑 区 (这 里 具体 

右 侧 mSTS/G) 响 应 于 面孔 选择 性 和 面孔 身份 加 工 ， 关 于 宏观 结构 连接 性 的 进一步 研究 
结果 显示 ， 早 期 于 人 “TVA-FFA” 的 连接 比 正 常 听 人 更 弱 (37%: 86%)(Benetti et al., 2018), 
说 明 感 觉 缺 失 人 群 并 未 表现 出 更 强 的 “TVA-FFA” 连 接 通 路 ， 而 且 相 比 于 “TVA-FFA”， 早 
期 众人 的 “V2/3-TVA” 通 路 具有 更 高 的 连接 强度 ， 文 持 了 谷 人 右 侧 TVA 是 基于 已 有 视觉 输 
入 的 基础 发 生 了 跨 模 态 重 组 ， 从 而 执行 面孔 加 工 任务 ， 这 一 结果 进一步 强调 了 关于 长 期 发 
展 性 感觉 缺失 脑 区 的 去 掩蔽 效应 这 一 理论 ， 并 且 这 种 去 掩蔽 效应 也 发 生 在 与 个 体 识别 加 工 
的 相关 脑 区 上 。 早 期 毒 人 “嗓音 加 工 脑 区 ”基于 去 掩蔽 效应 的 跨 模 态 重组 这 一 证 据 ， 一 定 
程度 上 支持 了 先天 盲人 “面孔 加 工 脑 区 ”可 能 也 具有 类 似 的 解释 机 制 ， 即 通过 对 于 听觉 信 


息 的 掩蔽 消失 和 输入 强化 的 方式 加 工 嗓音 信息 。 

那么 这 一 跨 模 态 重 组 脑 区 与 其 他 嗓音 加 工 脑 区 之 间 是 如 何 整合 信息 和 共同 作用 的 ?目前 
仅 在 人 类 嗓音 选择 性 加 工 研究 中 发 现 盲人 右 侧 aFG 与 左 侧 STS 脑 区 存在 功能 连接 (Dormal 
et al., 2018)， 而 在 例如 盲人 嗓音 身份 加 工 等 研究 中 还 缺乏 关于 多 个 脑 区 之 间 感 知 整 合 方式 
的 讨论 。 未 来 可 以 考虑 结合 更 加 多 元 的 分 析 方法 和 信 噪 比 更 高 的 颅 内 脑 电 技 术 、 经 颅 磁 刺 
激 等 技术 手段 对 于 盲人 “视觉 ”相关 脑 区 参与 嗓音 任务 的 跨 模 态 加 工 、 以 及 跨 模 态 脑 区 与 
典型 嗓音 加 工 脑 区 之 间作 用 的 方向 性 等 问题 开展 更 进一步 的 研究 ， 以 完善 言 人 嗓音 加 工 脑 
机 制 研究 的 解释 。 


5 总 结 与 未 来 研究 展望 


目前 关于 嗓音 加 工 相关 研 究 主要 结合 神经 典型 发 育 人 群 和 伴 有 嗓音 感知 障碍 的 特殊 人 
单 (例如 高 功能 ASD、 精 神 分 裂 串 者) 的 证 据 ， 本 文 在 此 基础 上 加 入 嗓音 感知 优势 群体 (盲人 ) 
的 研究 进一步 验证 了 在 正常 视力 者 中 发 现 的 右 侧 STS 是 对 于 人 类 嗓音 选择 性 加 工 的 重要 脑 
区 这 一 结论 ， 并 且 通 过 梳理 后 发 现 言 人 群体 嗓音 加 工 可 能 受到 特异 性 听觉 加 工 机 制 的 影响 
表征 出 不 同 于 常人 的 双 侧 化 加 工 倾向 和 “视觉 ”皮层 的 响应 及 卷 入。 并 且 这 些 来 自 不 同 群 
体 的 研究 也 强调 了 不 同 熟 悉 程 度 的 嗓音 身份 加 工 活动 具有 可 分 离 的 神经 基础 这 一 观点 ， 其 
= 中 值得 一 提 的 是 ， 正 常 视 力 者 的 熟悉 嗓音 身份 再 认 加 工 活 动 存在 两 种 “TVA-FFA” 连 接 通 
路 ， 包 括 FFA 脑 区 的 跨 模 态 信 息 加 工 和 视觉 面孔 信息 的 促进 作用 ; 而 盲人 梭 状 回 前 部 脑 区 
可 能 发 生 了 跨 模 态 重组 以 参与 多 项 不 同 的 嗓音 加 工 活动 ， 来 自 礁 人 TVA 加 工 面孔 刺激 的 证 
据 进 一 步 解 释 了 这 种 基于 去 掩蔽 效应 的 跨 模 态 重组 现象 ， 强 调 了 关于 嗓音 和 面孔 这 两 种 模 
态 加 工 之 间 的 紧密 关系 ， 但 仍 存在 很 多 问题 值得 未 来 的 进一步 研究 。 

第 一 ， 目 前 的 研究 虽然 支持 盲人 具有 更 好 的 嗓音 感知 能 力 和 不 同 于 常人 的 嗓音 加 工 脑 
© 机 制 ， 但 并 未 回答 关于 言 人 优势 的 身份 感知 能 力 (例如 熟悉 嗓音 身份 的 速度 更 快 ) 是 否 是 由 
于 对 于 某 些 声学 参数 具有 更 高 敏感 性 这 一 问题 ， 因 为 人 类 嗓音 信息 与 其 他 声音 相 比 包含 了 
更 为 复杂 的 声学 参数 ， 其 中 时 间 频 谱 特 征 、 基 频 等 信息 的 改变 都 可 以 影响 嗓音 感知 能 
已 有 研究 似乎 发 现 了 盲人 在 一 般 听 觉 加 工 中 存在 优势 的 原因 ， 例 如 盲人 对 于 听觉 频率 的 感 
知 与 常人 不 同 (Huber et al., 2019; Watkins et al., 2013)， 早 期 盲人 对 于 不 同 频率 的 纯音 感知 具 
有 更 窄 的 神经 “ 谐 调 (tunning)”(Huber et al., 2019)， 先 天 盲人 对 于 高 中 低 不 同 频 率 的 纯音 感 
知 激活 了 枕 叶 中 V5 /MT 的 区 域 (一 般 被 认为 是 听觉 /视觉 运动 加 工区 )， 但 是 在 正常 对 照 组 
中 则 未 激活 ， 说 明 盲 人 的 这 一 脑 区 可 以 对 于 听觉 信息 进行 早期 加 工 (Watkins et al., 2013). 
但 是 这 些 在 一 般 听 觉 研究 中 的 发 现 能 否 被 概括 为 盲人 嗓音 身份 加 工 优势 的 原因 ， 尤 其 在 熟 
悉 嗓 音 再 认 方面 ， 还 有 待 进一步 思考 ， 因 此 未 来 研究 可 以 就 盲人 对 于 人 类 嗓音 不 同 声学 参 
数 的 感知 这 一 问题 进行 探究 ， 以 深入 了 解 盲人 的 嗓音 加 工 机 制 。 
第 二 ， 由 于 声音 的 表征 存在 自 上 而 下 和 自 下 而 上 两 种 加 工 方式 ， 例 如 对 于 某 些 声学 特 
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征 进 行 更 为 细致 的 分 析 属 于 自 下 而 上 的 加 工 策略 ， 关 于 超 快 语音 加 工 相关 研究 表明 盲人 相 
比 于 正常 视力 者 可 能 更 多 采取 自 下 而 上 的 加 工 策略 。Hertrich 等 人 (2018) 的 研究 发 现 IFG 脑 
区 对 于 语音 包 络 中 音节 起 始 模板 (syllable onset template) 具 有 显著 的 锁 相 反应 。 相 比 于 盲人 
群体 ， 正 常 视 力 者 IFG 脑 区 增加 了 由 于 语音 训练 引起 的 锁 相 活动 ， 说 明正 常 视 力 者 增强 了 
自 上 而 下 的 加 工 ， 而 盲人 对 于 快速 语音 的 加 工 可 能 更 倾向 于 采取 更 加 精细 化 的 自 下 而 上 策 
略 (Hertrich et al., 2018)， 那 么 盲人 对 于 嗓音 的 加 工 方式 是 否 也 采用 此 类 策略 ? 另 一 方面 ， 
听觉 注意 、 认 知 控制 等 因素 对 嗓音 加 工会 产生 自 上 而 下 的 影响 ， 例 如 Hu 等 人 使 用 母语 和 
陌生 语言 的 时 间 反 转 语音 材料 考察 了 嗓音 辨别 的 语音 熟悉 度 效 应 ， 发 现 随 着 语音 不 熟悉 性 
的 增加 ， 嗓 音 识别 网 络 (voice identity network, VIN) 增 强 了 与 认 知 控制 相关 的 额 顶 网 络 之 间 
的 功能 连接 ， 说 明 嗓 音 辨 别 活动 会 受到 来 自 额 顶 网 络 自 上 而 下 的 调控 (Hu et al., 2017), HB 
么 盲人 是 否 是 基于 与 认 知 控制 脑 区 或 者 听觉 注意 相关 网 络 的 功能 连接 的 方式 增强 了 对 于 嗓 
音 刺激 的 自 上 而 下 的 加 工 ? 对 于 盲人 基于 哪 种 调控 方式 的 增强 从 而 具有 异 于 常人 的 嗓音 身 
份 加 工 优势 这 一 问题 ， 可 以 成 为 未 来 后 续 研 究 中 值得 验证 的 一 个 方向 。 
第 三 ， 盲 人 相 比 于 正常 视力 者 在 左 侧 STS/G 具有 更 强 的 嗓音 选择 性 反应 ， 以 及 左 侧 
STS/G 脑 区 激活 程度 与 嗓音 辨别 能 力 之 间 具 有 一 定 的 相关 性 ， 这 种 相对 的 左 侧 脑 区 增强 现 
象 一 方面 可 能 与 盲人 特异 性 听觉 机 制 相关 ， 男 一 方面 也 提示 了 我 们 需要 关注 正常 视力 者 左 
侧 脑 区 在 嗓音 加 工 的 作用 。 一 些 学 者 使 用 基于 fMRI 信号 的 MVPA 分 析 方 法 发 现 了 正常 视 
力 人 群 的 左 侧 STS/G 与 嗓音 加 工 活动 有 关 ，Bonte 等 人 (2014) 的 研究 表明 正常 视力 者 的 左 侧 
里 上 皮层 的 说 话 人 分 类 准确 率 与 辨别 行为 表现 之 间 存 在 显著 正 相 关 性 ，Aglieri 等 人 (2021) 
等 人 通过 让 被 试 手指 按键 的 方式 识别 出 经 过 熟悉 学 习 的 嗓音 ， 结 果 发 现 左 侧 aSTS/G、 同 侧 
TFG 脑 区 的 分 类 准确 率 与 个 体 再 认 成 绩 具 有 显著 正 相 关 性 (Aglieri et al., 2021)。 因 此 除了 典 
型 的 右 侧 TVA 之 外 ， 一 些 重要 的 相关 拓展 脑 区 也 被 逐渐 证 实 参与 了 正常 视力 者 的 嗓音 加 工 ， 
例如 左 侧 STS/G F IFG 脑 区 ， 但 这 些 脑 区 与 右 侧 TVA 之 间 存 在 怎样 的 关系 以 共同 参与 嗓音 
信息 加 工 可 能 还 需要 开展 更 多 的 相关 研究 。 
第 四 ， 在 
涉及 说 话 人 面孔 信息 的 嗓音 身份 加 工 任务 中 ， 两 类 人 群 表现 出 梭 状 回 脑 区 不 同位 置 的 
卷 入 一 一 盲人 梭 状 回 前 部 区 域 和 正常 视力 者 梭 状 回 中 后 部 区 域 ， 这 些 脑 区 都 与 视觉 面孔 加 
工 密切 相关 ， 可 以 诱发 视觉 面孔 加 工 反 应 。 但 在 没有 提供 说 话 人 面孔 信息 的 前 提 下 ， 这 种 
视觉 面孔 加 工 相关 脑 区 的 卷 入 ， 一 方面 可 能 反映 了 梭 状 回 脑 区 对 于 嗓音 信息 进行 的 跨 模 态 
加 工 ， 但 是 为 什么 盲人 的 跨 模 态 加 工 脑 区 不 同 于 常人 ? 这 一 问题 目前 并 没有 得 到 很 好 的 
答 ， 但 就 这 两 个 脑 区 的 功能 来 看 ， 二 者 仍 存在 一 些 加 工 差 异 ， 例 如 刺激 aFG 脑 区 则 无 法 再 
认 著 名 面孔 (包括 无 法 回忆 名 字 和 背景 语义 知识 )， 但 不 会 发 生 面 孔 扭曲 现象 (Jonas et al., 
2015)， 而 刺激 FFA 脑 区 可 以 造成 视觉 面孔 扭曲 效应 ， 但 不 影响 著名 面孔 再 认 和 视觉 能 


(Parvizi et al., 2012)， 因 此 相 比 于 FFA 脑 区 ，aFG 脑 区 的 功能 可 能 更 倾向 于 面孔 相关 的 语义 
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联系 或 语义 记忆 (Mion etal., 2010)， 例 如 说 话 人 的 名 字 和 相关 背景 语义 知识 ， 这 些 语义 联系 
与 说 话 人 身份 加 工 密 切 相 关 。 因 此 对 于 缺乏 视觉 经 验 的 盲人 而 言 ， 即 使 知觉 材料 是 熟悉 嗓 
音 ， 也 只 能 更 加 依靠 与 语义 记忆 相关 的 aFG 脑 区 的 加 工 ， 所 以 相 比 于 正常 视力 者 ， 盲 人 群 
体 加工 嗓 音 加 工 过 程 更 加 需要 aFG 脑 区 的 参与 。 但 是 这 些 推 论 目前 还 未 得 到 相关 实证 研究 
的 支持 ， 并 且 这 一 解释 还 存在 一 定局 限 性 ， 例 如 无 法 解释 盲人 嗓音 选择 性 加 工 过 程 中 aFG 
脑 区 的 卷 入 ， 因 此 还 需要 针对 盲人 群体 开展 更 多 嗓音 加 工 研究 。 另 一 方面 视觉 面孔 加 工 脑 
区 的 卷 入 现象 还 可 能 说 明 这 些 梭 状 回 脑 区 本 质 上 属于 多 模 态 加 工 脑 区 ， 可 以 响应 于 其 他 非 
视觉 信息 ， 但 以 上 两 点 都 要 求 我 们 需要 对 于 梭 状 回 脑 区 结构 和 功能 需要 具有 更 加 深入 的 控 
掘 和 认识 。 
第 五 ，Pascual-Leone 和 Hamilton (2001) 基 于 掩蔽 效应 提出 的 关于 大 脑 结 构 的 元 模 态 假 
说 (metamodal hypothesis) 为 跨 模 态 重 组 现象 提供 了 理论 解释 ， 这 一 假说 认为 大 脑 实际 上 可 
一 能 表征 为 一 种 用 于 执行 特定 功能 或 计算 的 元 模 态 结构 ， 与 感觉 输入 方式 无 关 ， 虽 然 脑 区 的 
功能 独立 于 输入 方式 ， 但 其 使 用 何 种 模 态 进 行 表达 则 取决 于 不 同 输 入 之 间 竞 争 的 结果 ， 获 
得 优胜 的 感觉 输入 对 于 这 一 功能 的 选择 性 反应 不 断 增 强 ， 最 终 产 生 并 行 、 独 立地 处 理 不 同 
感觉 信号 的 大 脑 结构 。 以 视觉 皮层 为 例 ， 在 正常 视力 者 中 来 自视 网 膜 的 视觉 信息 为 实现 纹 
状 体 皮 层 的 特定 功能 提供 了 最 佳 的 信息 来 源 ， 视 觉 输入 从 而 成 为 其 主要 输入 方式 。 对 于 失 
去 视觉 的 言 人 群体 而 言 ， 这 些 区 域 的 神经 解剖 结构 增强 了 存在 的 听觉 或 触觉 输入 (去 掩蔽 ) 
以 执行 高 度 相似 的 计算 任务 ， 表 现 为 功能 稳定 (functional constancy) 的 跨 模 态 重组 现象 ， 即 
利用 不 同 的 信息 输入 方式 执行 类 似 的 功能 。 因 此 结合 这 一 假说 ， 盲 人 的 面孔 加 工 脑 区 可 以 
基于 对 潜在 听觉 输入 的 强化 以 处 理 说 话 人 相关 的 信息 ， 但 关于 FFA 与 听觉 脑 区 之 间 是 否 存 
在 结构 连接 还 有 待 未 来 研究 的 检验 。 
第 六 ， 一 些 脑 成 像 研究 也 发 现 了 一 些 高 度 功 能 特异 性 脑 区 独立 于 模 态 加 工 的 证 据 ， 例 
如 盲人 可 以 通过 触觉 感知 3D 面孔 在 外 侧 梭 状 回 脑 区 产生 对 于 面孔 的 选择 性 激活 (Ratan 
Murty et al., 2020); 视觉 运动 选择 性 加 工 的 V5 脑 区 (Wilms et al., 2005) 发 现 了 其 在 盲人 群体 
中 参与 了 听觉 运动 加 工 (Bedny et al., 2010); 与 听觉 定位 加 工 相关 的 后 部 听觉 野 (posterior 
auditory field，PAF) 参 与 了 华人 视觉 定位 的 加 工 (Lomber et al., 2010); 视觉 词 形 区 域 (visual 
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word form area, VWFA) 与 盲文 阅读 有 关 (Burton et al., 2002; Reich et al., 2011)。 这 些 研 究 说 明 
脑 区 可 能 具有 独立 于 输入 方式 的 功能 特异 性 ， 例 如 V5 的 实际 功能 主要 是 加 工 物体 的 空间 
运动 。 不 同 于 Pascual-Leone 和 Hamilton(2001) 关 于 结构 决定 功能 的 观点 ，Lomber 等 人 
(2010) 虽 然 认 同感 觉 缺失 脑 区 可 以 在 维持 原 有 功能 的 基础 上 改变 模 态 的 输入 方式 ， 其 更 强 
调 这 些 功能 本 质 上 具有 超 横 态 性 质 ， 对 于 特定 横 态 的 特征 (例如 颜色 ， 方 向 等 ) 加 工 则 不 会 
发 生 这 种 跨 模 态 重组 现象 (Lomber etal., 2010)， 因 此 关于 大 脑 结构 、 功 能 以 及 输入 方式 三 者 
之 间 的 关系 还 需要 更 多 实验 研究 的 探索 ， 厘 清 这 些 关 系 也 将 有 助 于 进一步 解释 面孔 加 工 和 
嗓音 加 工 的 相互 作用 机 制 。 
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第 七 ， 嗓 音 身 份 作为 听觉 客体 知觉 特征 的 一 部 分 ， 不 仅 具 有 特异 性 的 神经 加 工 机 制 ， 
而 且 还 需要 进一步 考虑 嗓音 身份 与 其 他 知觉 特征 (例如 言语 内 容 、 情 绪 色 彩 、 空 间 位 置 等 信 
息 ) 如 何 交 互 和 整合 ， 以 及 如 何 影 响 听 觉 客 体 的 完好 性 等 问题 都 显得 更 为 重要 ， 结 合 鸡 尾 酒 
会 场景 下 的 目标 言语 感知 研究 则 将 有 助 于 进一步 回答 这 一 问题 ， 研 究 发 现 当 启 动 刺激 和 目 
标 刺 激 的 嗓音 身份 相同 时 ， 嗓 音 身份 的 一 致 性 可 以 促进 被 掩蔽 的 目标 言语 的 识别 (Huang et 
al., 2010; Xu et al., 2008; Yang et al., 2007)。 此 外 ， 在 没有 嗓音 身份 启动 的 情况 下 ， 听 者 对 于 
目标 言语 说 话 人 身份 的 熟悉 性 也 可 以 减少 言语 信息 掩蔽 的 干扰 (Holmes et al., 2018; Holmes 
& Johnsrude，2021)，fMRI 研究 表明 这 种 嗓音 身份 熟悉 性 所 引发 的 言语 识别 优势 与 目标 言 
语 的 大 脑 皮 层 〈 颗 中 回 和 左 侧 颗 上 回 后 侧 ) 信 噪 比 的 显著 增加 相关 (Holmes & 
Johnsrude，2021)。 因 此 ， 无 论 是 嗓音 身份 的 一 致 性 还 是 熟悉 性 ， 均 可 以 促进 目标 言语 的 感 
知 编码 。 关 于 知觉 客体 的 各 个 特征 之 间 的 捆绑 机 制 将 有 助 于 进一步 解释 这 一 现象 ， 即 当 嗓 
音 身 份 知觉 特征 与 已 知 (一 致 的 ) 或 内 在 (熟悉 的 ) 的 嗓音 身份 知觉 特征 匹配 时 ， 可 以 强化 嗓音 
身份 特征 的 知觉 加 工 ， 也 就 强化 了 其 与 对 于 目标 言语 特征 之 间 的 知觉 捆绑 ， 从 而 提高 了 有 目 
标 言语 客体 的 显现 度 (saliency) 及 其 与 捧 蔽 客体 的 知觉 分 离 性 ， 最 后 抑制 掩蔽 客体 的 表达 并 
促进 目标 言语 的 识别 ( 李 量 等 , 2017)。 总 的 来 说 ， 未 来 研究 需要 在 嗓音 身份 加 工 研究 的 基 
础 上 ， 考 察 其 与 其 它 嗓 音信 息 的 交互 过 程 ， 对 于 这 些 问题 的 探讨 将 有 助 于 更 好 地 揭示 听觉 
语 流 中 多 种 线索 的 动态 知觉 过 程 ， 对 于 听觉 加 工 、 言 语 认 知 以 及 人 工 智能 等 领域 都 具有 重 
要 意义 。 

最 后 ， 盲 人 群体 受到 语言 文字 习 得 年 龄 、 受 教育 程度 、 生 活 环境 等 诸多 因素 的 影响 ， 
整体 的 认 知 水 平 与 一 般 人 群 存在 一 定 差异 ， 也 具有 更 大 的 个 体 差异 性 ， 因 此 提高 被 试 间 基 
本 信息 的 匹配 性 可 以 帮助 我 们 得 到 更 为 可 靠 的 数据 结果 。 鉴 于 目前 国内 缺乏 具有 广泛 使 用 
的 盲人 智力 测试 量 表 ， 未 来 研究 可 以 考虑 开发 一 套 适 用 于 国内 盲人 的 可 快速 检测 的 智力 测 
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Abstract: The human voice, as an important part of one’s auditory environment, contains a large 


amount of paralinguistic information to help identify individuals. Especially for blind individuals, 
the lack of visual face experience makes voice information the main source of perceiving another 
person's individual characteristics. By combining the research on voice-selective and voice- 
identity processing among both sighted and blind individuals, the present study attempts to reveal 
the general human voice processing mode and specific voice processing mechanism among blind 
persons. It also shows that the fusiform gyrus related to visual face processing are involved in 
voice tasks in both groups. The auditory-visual integration model and cross-modal reorganization 
hypothesis based on the “unmasking effect”, provide respective explanation mechanisms for the 
different neural bases of voice processing between the two subjects. Future, researchers should 
further investigate the voice processing strategies of blind individuals and the role of the left 
superior temporal sulcus/gyrus in voice processing. 

Keywords: voice identity processing, sighted subjects, blind subjects, fusiform gyrus, face 


processing 


